017 爬虫基本原理

爬虫基本原理

基本流程

  • 发起请求
  • 获取响应内容
  • 解析内容
  • 保存数据

Request

  • 请求方式
  • 请求url
  • 请求头
  • 请求体

Response

  • 响应状态
  • 响应头
  • 响应体

哪些数据

  • 网页文本
  • 图片
  • 视频
  • 其他

解析方式

  • 直接处理
  • Json解析
  • 正则表达式
  • BeautifulSoup
  • Pyquery
  • Xpath

JavaScript渲染问题

  • 分析Ajax请求
  • Selenium/WebDriver
  • Splash
  • PyV8、Ghost.py

如何保存数据

  • 文本
  • 关系型数据库
  • 非关系型数据库
  • 二进制文件

常用的环境配置

MongoDB

redis

mysql

常用库安装

  • pip install requests selenium beautifulsoup4 pyquery pymysql pymongo redis flask django jupyter